home *** CD-ROM | disk | FTP | other *** search
/ Collection of Internet / Collection of Internet.iso / infosrvr / doc / www_talk.arc / 000353_timbl@www3.cern.ch _Thu Nov 19 14:24:24 1992.msg < prev    next >
Internet Message Format  |  1992-11-30  |  6KB

  1. Return-Path: <timbl@www3.cern.ch>
  2. Received: from dxmint.cern.ch by  nxoc01.cern.ch  (NeXT-1.0 (From Sendmail 5.52)/NeXT-2.0)
  3.     id AA14176; Thu, 19 Nov 92 14:24:24 MET
  4. Received: by dxmint.cern.ch (dxcern) (5.57/3.14)
  5.     id AA01997; Thu, 19 Nov 92 14:36:40 +0100
  6. Received: by www3.cern.ch (NX5.67c/NX3.0S)
  7.     id AA00503; Thu, 19 Nov 92 14:32:11 +0100
  8. Date: Thu, 19 Nov 92 14:32:11 +0100
  9. From: Tim Berners-Lee <timbl@www3.cern.ch>
  10. Message-Id: <9211191332.AA00503@www3.cern.ch>
  11. Received: by NeXT.Mailer (1.87.1)
  12. Received: by NeXT Mailer (1.87.1)
  13. To: Dan Connolly <connolly@pixel.convex.com>
  14. Subject: Re: HTML DTD issues
  15. Cc: www-talk@nxoc01.cern.ch
  16. Reply-To: timbl@nxoc01.cern.ch
  17.  
  18. Dan,
  19.  
  20. Your work on the SGML side (as all your work) is much apreciated!
  21.  
  22. >  Date: Thu, 19 Nov 92 04:37:23 CST
  23. >  From: Dan Connolly <connolly@pixel.convex.com>
  24. >  
  25.  
  26. >  
  27.  
  28. >  The thrust to register HTML with the authorities has
  29. >  spurred me to look over the DTD again. I've found some
  30. >  problems.
  31. >  
  32.  
  33. >  1. Currently the NAME attribute of an anchor is declared
  34. >  as CDATA, i.e. just about anything. There's an SGML thingy
  35. >  called an ID. SGML parsers enforce uniqueness among the
  36. >  IDs of a document. Seems like that's what we want for ID
  37. >  names.
  38. >  
  39.  
  40. >  But an SGML ID has to start with a letter. So all the
  41. >  HTML files that use numbers as anchor names will break.
  42.  
  43. The enforcement of uniqueness is useful, and it is what we want.
  44. It is unfortunate that the very same constraint lead to the use of numbers!
  45. This is a hangup of the NeXT editor (which i still use, as
  46. until somone makes a more convenient editor!) but we oughtn't to
  47. worry about it.  A future editor could generate Z[0-9]* names.
  48. We could even specify that Z[0-9]* are related to a NEXTID attribute
  49. somewhere for the generation of time-unique IDs.
  50.  
  51. The only neat thing about CDATA is that it would allow a gateway
  52. to put in something which as come from the data. For example,
  53. a glossary generator might generate anchors for each term
  54. whose name equals the term, and then generate index entries
  55. pointing to that.
  56.  
  57. What do you think?
  58.  
  59. >  2. I introduced two tag names when I drafted the DTD:
  60. >      HTML contains the whole document. I defined it
  61. >  so you can omit both the start and the end tags, so it's
  62. >  inferred by SGML parsers. I don't think I can avoid some
  63. >  top-level tag.
  64. >      DOCUMENT contains most of the "body" -- all the
  65. >  headings and paragraphs. I did this to avoid something
  66. >  called mixed content, which causes complications.  I
  67. >  could rename this element as BODY, and introduce a
  68. >  omitable HEADING tag to surround the TITLE, NEXTID, and
  69. >  ISINDEX tags.
  70.  
  71. I like the latter idea.  Header and Body fit in well with mail
  72. nomenclature, wherase "document" is normally the whole thing
  73. retrieved.
  74.  
  75. >  3. I stuck anchors in as an inclusion, meaning they could
  76. >  be used just about anywhere. I thought stuff like <a
  77. >  name=foo><h1>Foo</h1></a> was legal, but neither linemode
  78. >  nor the midas browser groks.
  79.  
  80. The line mdoe doesn't?  It should.  Only titles I wanted to insist were
  81. plain ascii text....
  82. Turns out to be a bug in HTML.c -- fixed for next release.
  83.  
  84. >  I'm editing the DTD to restrict the usage of anchors to
  85. >  only contain text strings.
  86.  
  87. I don't like that.... I think that especially as we introduce
  88. highlighting, anchors will want to be general areas of text, so
  89. long as they are nested properly. (An "SGML attitude" restriction
  90. which Frank Kappe objected to I recall).
  91.  
  92. >  4. The OL tag is disappearing. It's no longer documented
  93. >  in the web, and it's not supported by MidasWWW. Should
  94. >  I delete it from the DTD?
  95.  
  96. You say its useful?  If you havce implemented it, and noone else
  97. objects, then we could put it back in. In principle, with hypertext, you don't  
  98. have to number tyhings, you can refer to them with a link. However, you
  99. can imagine the abstract difference between an ordered list and 
  100.  
  101. a sack of objects being important.  [For example, a list of
  102. instructions is ordered].  I'll put it into the HTML2 list of features.
  103. I suggest everyone  implement OL as UL in programs which, like the line mode  
  104. browser, can't differentiate.
  105.  
  106.  
  107. >  5. What about <HP1> thru <HP5>... should we include them?
  108. >  I'd prefer <em>, <tt>, <cite>, ala TeX. Or we could go
  109. >  with the O'Reilly/Hal DocBook tags:  <Emphasis>,
  110. >  <OopsChar>, <wordasword>,<CiteBook>,<Subscript>,
  111. >  <Superscript>.
  112.  
  113. I agree that numbering them is on the verge of useless.  The trouble is,
  114. you never have enough. Why CiteBook but not CiteProgram? etc etc.
  115. The docbook names are on the long side, aren't they? Not very important
  116. I suppose.
  117.  
  118. >  6. Any more thoughts on the BaseAddress tag?
  119.  
  120. Yes. It should be in. I think.  I've mentioned in  
  121. http://info.cern.ch/hypertext/WWW/MarkUp/Future.html
  122.  
  123. >  7. The HTML tags documentation says Listing sections can
  124. >  contain any ISO Latin 1 characters. The SGML standard
  125. >  mentions ISO 646, i.e. ascii, as the default, but the
  126. >  sgmls parser, the linemode browser, and MidasWWW all seem
  127. >  to grok Latin1 just fine.
  128.  
  129. I suggest we limit it to ASCII unless something outside the
  130. document says otherwise, while strongly recommending that
  131. 8-bit character sets should be handled by the apps.  I have
  132. seen some funnies when two clients both handle 8-bit characters,
  133. but not the same ones.
  134.  
  135. Does the SGML standard say how to specify the character set for
  136. the text?
  137.  
  138. >  Dan
  139. >  
  140.  
  141.     Tim